传统的过程挖掘技术将事件数据作为输入,其中每个事件与一个对象完全关联。对象表示过程的实例化。以对象为中心的事件数据包含与表达多个过程相互作用的多个对象关联的事件。由于传统的过程挖掘技术假设与一个对象相关的事件,因此这些技术不能应用于以对象为中心的事件数据。为了使用传统的过程挖掘技术,通过删除所有对象引用,以一种以对象为中心的事件数据来平坦。扁平过程是有损的,导致从扁平数据中提取的不准确的特征。此外,在变平时丢失了以对象事件数据的图形结构。在本文中,我们介绍了一个通用框架,用于从对象事件数据中提取和编码功能。我们在以对象为中心的事件数据上本地计算功能,从而导致准确的度量。此外,我们为这些功能提供了三个编码:基于表格,顺序和图形。尽管表格和顺序编码已在过程挖掘中大量使用,但基于图的编码是一种保留以对象事件数据结构的新技术。我们提供六种用例:为三个编码中的每个编码中的每一个提供可视化和预测用例。我们在预测用例中使用可解释的AI来显示以对象为中心的特征的实用性以及针对预测模型的基于顺序和基于图的编码的结构。
translated by 谷歌翻译
流程的执行留下了信息系统中事件数据的痕迹。这些事件数据可以通过过程挖掘技术进行分析。对于传统的流程​​挖掘技术,必须将每个事件与一个对象(例如公司的客户)相关联。与一个对象相关的事件形成一个称为案例的事件序列。一个案例描述了通过流程进行的端到端运行。事件数据中包含的案例可用于发现过程模型,检测频繁的瓶颈或学习预测模型。但是,在现实生活中遇到的事件,例如ERP系统通常可以与多个对象关联。传统的顺序案例概念缺少这些以对象为中心的事件数据,因为这些数据显示了图形结构。一个人可能会通过使其变色将以对象为中心的事件数据迫使传统案例概念。但是,扁平化操纵数据并删除信息。因此,与传统事件日志的案例概念相似的概念对于启用以对象为中心的事件数据应用不同的过程挖掘任务是必要的。在本文中,我们介绍了以对象为中心的过程挖掘的案例概念:过程执行。这些是基于图形的案例概括,如传统过程采矿中所考虑的。此外,我们提供了提取过程执行的技术。基于这些执行,我们确定了使用图同构的属性相对于属性的等效过程行为。关于事件活动的等效过程执行是以对象为中心的变体,即传统过程挖掘中变体的概括。我们为以对象为中心的变体提供了可视化技术。贡献的可伸缩性和效率得到了广泛的评估。此外,我们提供了一个案例研究,显示了现实生活中最常见的以对象为中心的变体。
translated by 谷歌翻译
流程挖掘中的绩效分析旨在通过使用流程模型作为过程的形式表示业务流程的绩效见解。这些见解是在具有正式语义的模型的背景下可靠地解释的。现有的绩效分析技术假设在业务过程中存在一个案例概念(例如,医疗保健过程中的患者)。但是,实际上,不同对象可能会交互(例如,O2C过程中的顺序,项目,交付和发票)。在这种情况下,传统技术可能会产生误导性甚至对等待时间等性能指标的见解。更重要的是,通过考虑对象之间的相互作用,我们可以定义以对象为中心的性能指标,例如同步时间,汇总时间和滞后时间。在这项工作中,我们提出了一种新颖的方法来进行绩效分析,以考虑多个病例概念,通过使用以对象为中心的培养皿作为业务流程的正式表示。提出的方法正确地计算了现有的性能指标,同时支持新引入的以对象为中心的性能指标的推导。我们已经将该方法作为Web应用程序实施,并根据现实生活贷款申请流程进行了案例研究。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
Visualization methods based on the nearest neighbor graph, such as t-SNE or UMAP, are widely used for visualizing high-dimensional data. Yet, these approaches only produce meaningful results if the nearest neighbors themselves are meaningful. For images represented in pixel space this is not the case, as distances in pixel space are often not capturing our sense of similarity and therefore neighbors are not semantically close. This problem can be circumvented by self-supervised approaches based on contrastive learning, such as SimCLR, relying on data augmentation to generate implicit neighbors, but these methods do not produce two-dimensional embeddings suitable for visualization. Here, we present a new method, called t-SimCNE, for unsupervised visualization of image data. T-SimCNE combines ideas from contrastive learning and neighbor embeddings, and trains a parametric mapping from the high-dimensional pixel space into two dimensions. We show that the resulting 2D embeddings achieve classification accuracy comparable to the state-of-the-art high-dimensional SimCLR representations, thus faithfully capturing semantic relationships. Using t-SimCNE, we obtain informative visualizations of the CIFAR-10 and CIFAR-100 datasets, showing rich cluster structure and highlighting artifacts and outliers.
translated by 谷歌翻译
多目标高维运动优化问题在机器人技术中无处不在,并且信息丰富的梯度受益。为此,我们要求所有成本函数都可以微分。我们建议学习任务空间,数据驱动的成本功能作为扩散模型。扩散模型代表表达性的多模式分布,并在整个空间中表现出适当的梯度。我们通过将学习的成本功能与单个目标功能中的其他潜在学到的或手工调整的成本相结合,并通过梯度下降共同优化所有这些属性来优化运动。我们在一组复杂的掌握和运动计划问题中展示了联合优化的好处,并与将掌握的掌握选择与运动优化相提并论相比。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
机器人大会发现是一个充满挑战的问题,它生活在资源分配和运动计划的交集中。目的是将一组预定义的对象组合在一起,以形成新事物,同时考虑使用机器人在循环中执行任务。在这项工作中,我们解决了使用一组类似俄罗斯方块的构建块和机器人操纵器完全从头开始构建任意,预定义的目标结构的问题。我们的新型分层方法旨在有效地将整个任务分解为三个可行的水平,这些级别相互受益。在高水平上,我们运行了一个经典的混合企业计划,用于全局优化块类型的选择和块的最终姿势,以重新创建所需的形状。然后利用其输出来有效地指导探索基础强化学习(RL)政策。该RL策略从基于Q的灵活图表中汲取了其概括属性,该属性通过Q-学习学习,可以通过搜索来完善。此外,它说明了结构稳定性和机器人可行性的必要条件,这些条件无法有效地反映在上一层中。最后,掌握和运动计划者将所需的组装命令转换为机器人关节运动。我们证明了我们提出的方法在一组竞争性的模拟RAD环境中的性能,展示现实世界的转移,并与非结构化的端到端方法相比,报告性能和稳健性。视频可从https://sites.google.com/view/rl-meets-milp获得。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
灵巧的操纵仍然是机器人技术中的一个空缺问题。为了协调研究界为解决这个问题的努力,我们提出了共同的基准。我们设计和构建了机器人平台,该平台托管在MPI上供智能系统托管,可以远程访问。每个平台由三个能够敏捷物体操纵的机器人手指组成。用户能够通过提交自动执行的代码(类似于计算群集)来远程控制平台。使用此设置,i)我们举办机器人竞赛,来自世界任何地方的团队访问我们的平台以应对具有挑战性的任务ii)我们发布了在这些比赛中收集的数据集(包括数百个机器人小时),而我们为研究人员提供了访问自己项目的这些平台。
translated by 谷歌翻译